检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于策略梯度算法的工作量证明中挖矿困境研究

王甜甜, 于双元, 徐保民

计算机应用 2019, 39 (5): 1336-1342. DOI: 10.11772/j.issn.1001-9081.2018102197

摘要（479）

PDF （1022KB）（321）

针对区块链中工作量证明（PoW）共识机制下区块截留攻击导致的挖矿困境问题，将矿池间的博弈行为视作迭代的囚徒困境（IPD）模型，采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体（Agent），将矿工的潜入率量化为强化学习中的行为分布，通过策略梯度算法中的策略网络对Agent的行为进行预测和优化，最大化矿工的人均收益，并通过模拟实验验证了策略梯度算法的有效性。实验发现，前期矿池处于相互攻击状态，平均收益小于1，出现了纳什均衡的问题；经过policy gradient算法的自我调整后，矿池由相互攻击转变为相互合作，每个矿池的潜入率趋于0，人均收益趋于1。实验结果表明，policy gradient算法可以解决挖矿困境的纳什均衡问题，最大化矿池人均收益。

参考文献 | 相关文章 | 多维度评价